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Применение деревьев решений 
для моделирования кредитоспособности 
клиентов коммерческого банка 


В настоящее время у российских банков остро стоит задача в оптимизации процесса выдачи кредитов 
как физическим, так и юридическим лицам. Это позволяет сделать скоринг. В данной статье 
описывается применение деревьев решений для построения скоринговой модели. 


Основу финансовой системы современной России составляют банки. Поэтому 
от успешного развития банковской деятельности зависит устойчивость как финан- 
совой системы, так и всей экономики. Российская банковская система находится на 
этапе интенсивных рыночных преобразований. В условиях острой конкуренции и 
концентрации банковского капитала важнейшей задачей является оптимизация креди- 
тования как физических, так и юридических лиц. На сегодняшний день российские 
банки предоставляют огромное количество «кредитных продуктов» на различные 
цели. Кредитование является основной важнейшей деятельностью любого банка. Но, к 
сожалению, банки не используют весь свой имеющийся потенциал для кредито- 
вания. Это связано с тем, что кредитование связано с большим количеством рисков, 
в первую очередь с риском невозврата выданных средств. Поэтому при принятии 
решения о выдаче кредита банк всячески перестраховывается, а это непосредственно 
влияет на то, что не все потенциальные «честные» заемщики могут соответствовать 
требованиям, предъявляемым банком к заемщику. Также даже если заемщик и 
соответствует требованиям банка, он может просто отказаться кредитоваться из-за 
того, что процедура кредитования достаточно сложная и занимает много времени. 
Соответственно количество заемщиков у банка уменьшается, уменьшается количество 
выданных кредитов, поэтому происходит в некотором роде застой денежных средств 
и, соответственно, банк использует свой капитал не оптимально, вследствие чего теряет 
прибыль. 

Во многих развитых странах мира эта проблема решена с помощью так называемых 
скоринговых систем, которые позволяют оптимизировать процесс кредитования. 
Буквальный перевод «5согте» — «выигрыш». Скоринг по существу является методом 
классификации всей интересующей нас популяции на различные группы, когда нам 
неизвестна характеристика, которая разделяет эти группы (вернет клиент кредит или 
нет), но зато известны другие характеристики, связанные с интересующей нас популя- 
цией. В 1941 г. Дэвид Дюран впервые применил данную методику к классификации 
кредитов на «плохие» и «хорошие». 

В настоящее время, в зависимости от задач анализа заемщика, кредитный ско- 
ринг включает аррИсаНоп-скоринг — оценку кредитоспособности претендентов на 
получение кредита (скоринг по анкетным данным используется в первую очередь), 
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Берау1ога]-скоринг — оценка вероятности возврата выданных кредитов (поведенческий 
анализ), а также соЦесйоп-скоринг — оценка возможности полного либо частичного 
возврата кредита при нарушении сроков погашения задолженности (расчет рисков 
по портфелю) [1]. 

Скоринг представляет собой сложную математическую модель, которая позволяет 
классифицировать клиентов банка на различные группы, позволяя с определенной 
вероятностью отсеивать «плохих» клиентов. В целях построения модели сначала 
производится выборка клиентов кредитной организации, о которых уже известно, 
хорошими заемщиками они себя зарекомендовали или нет. Такая выборка назы- 
вается «обучающей». Она может варьироваться от нескольких тысяч до сотни тысяч. 
Выборка подразделяется на две группы: «хорошие» и «плохие» риски. Это оправ- 
дано в том смысле, что банк при принятии решения о кредитовании на первом этапе 
выбирает из двух вариантов: давать кредит или не давать. Таким образом, скоринг 
представляет собой классификационную задачу, где, исходя из имеющейся информации, 
необходимо получить функцию, наиболее точно разделяющую выборку клиентов на 
«плохих» и «хороших». 

Традиционными и наиболее распространенными являются линейные многофак- 
торные регрессионные методы. Регрессионные методы плохо приспособлены для 
работы с переменными, выраженными в шкале наименований. 

Логистическая регрессия позволяет преодолеть этот недостаток. В настоящее время 
логистическая регрессия широко применяется в скоринговых системах. Логистичес- 
кая регрессия позволяет подразделять клиентов на несколько групп риска. 

Все регрессионные методы чувствительны к корреляции между характеристи- 
ками, поэтому в модели не должно быть сильно коррелированных независимых 
переменных. Кроме того, регрессионные коэффициенты дают немного информации о 
механизме влияния рассматриваемых переменных на величину риска. 

Дерево классификации представляют собой системы, которые разделяют кли- 
ентов на группы, внутри которых уровень риска одинаков и максимально отличается 
от уровня риска других групп. 

Классификация выборки производится только на клиентах, которым дали кре- 
дит. Неизвестно, как бы повели себя клиенты, которым в кредите было отказано. 
Возможно, что какая-то часть оказалась бы приемлемыми заемщиками. Банкам 
следует фиксировать причины отказа и сохранять информацию. Это позволяет им 
восстанавливать первоначальную популяцию клиентов, обращавшихся за кредитом. 
С течением времени меняются и социально-экономические условия, влияющие на 
поведение людей. Поэтому скоринговые модели необходимо разрабатывать на 
выборке из последних клиентов, периодически проверять качество работы системы 
и, когда качество ухудшается, разрабатывать новую модель [2]. 

Важным направлением обработки данных являются рассуждения, основанные 
на предыдущем опыте [3]. Это методология, моделирующая нечеткий механизм 
размышлений, что сходно с процессом вывода заключений экспертами предметной 
области. Поля данных, используемых для объяснения и предсказания результата, 
становятся признаками ситуации. Число реальных событий должно быть достаточ- 
ным для возможно более полного покрытия предметной области. Такие алгоритмы 
допускают представление информационных полей в цифровом виде, а также в виде 
лингвистических, булевых и дискретных переменных. В процессе поиска система 
использует либо некоторые из этих полей, либо все поля полностью, выполняя 
вычисления для объяснения или предсказания результата. Итоговое поле признаков 
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или любое другое поле, возникшее в результате моделирования взаимосвязей в 
полях исходных данных, может быть выражено в виде некоторого правила. Если 
данные неполные, алгоритм способен продолжить работу, извлекая наиболее подхо- 
дящий результат. Подобные алгоритмы не предъявляют жестких требований к точности 
и полноте данных. Текстовые поля, содержащие качественную информацию, могут 
быть включены в процесс вывода обычным образом. Эти системы обеспечивают поль- 
зователя полезными инструкциями, содержащими оценку того, как исходные данные 
подводятся к итоговому решению. К алгоритмам анализа, основанным на правилах, 
следует отнести адаптивные системы нечеткого вывода и деревья решений. Метод 
деревьев решений отличается высокой скоростью обработки данных и обучения при 
сохранении свойств систем нечеткого логического вывода. Метод деревьев решений 
может применяться для целевой переменной, имеющей булев или категориальный 
тип. Такие переменные содержат значения, принадлежащие некоторому конечному 
множеству без определенного отношения порядка на нем. 

Пусть целевая переменная соответствует некоторым классам, на которые разбито 
множество данных [3]. Требуется отыскать некоторое классифицирующее правило, 
позволяющее разбить множество данных на эти классы. В процессе поиска клас- 
сифицирующего правила проводится перебор всех независимых переменных и 
отыскивается наиболее представительное правило на данном этапе. В обычных 
деревьях решений применяются предикаты вида х<уи’,х> *. Данные разбиваются 
на две группы в соответствии со значением этого предиката. После этого процесс 
повторяется для каждой из этих групп до тех пор, пока получающиеся подгруппы 
содержат в себе представителей классов и включают в себя достаточно большое 
количество точек для того, чтобы статистически значимо быть разбитыми на меньшие 
подгруппы. В результате окончательное классифицирующее правило, построенное этим 
процессом, может быть представлено в виде бинарного дерева. Каждый узел этого 
дерева соответствует некоторому подмножеству данных и содержит найденное клас- 
сифицирующее правило для этого подмножества. 

Удобным для анализа свойством деревьев решений является представление 
данных в виде иерархической структуры. Компактное дерево проявляет картину 
влияния различных факторов, независимых переменных. 

Метод классификации, основанный на деревьях решений, имеет в качестве 
преимуществ следующие свойства: 

— быстрый процесс обучения; 

— генерация правил в областях, где эксперту трудно формализовать свои знания; 
— извлечение правил на естественном языке; 

— интуитивно понятная классификационная модель; 

— достаточно высокая точность прогноза, сопоставимая с другими методами; 

— построение непараметрических моделей. 

Эти положительные свойства приближают методологию деревьев решений к 
системам, основанным на нечеткой логике, выигрывая у них в быстроте процесса 
обучения. 

Деревья решений — один из методов извлечения знаний из данных. Введем ос- 
новные понятия из теории деревьев решений: 

— объект - пример, шаблон, наблюдение, точка в пространстве атрибутов; 

— атрибут — признак, независимая переменная, свойство; 

— метка класса — зависимая переменная, целевая переменная, признак, определяю- 
щий класс объекта; 
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— узел — внутренний узел дерева, узел проверки; 
— лист — конечный узел дерева, узел решения; 
— проверка — условие в узле. 

Деревья решений - это способ представления правил в иерархической, после- 
довательной структуре, где каждому объекту соответствует единственный узел, 
дающий решение. Под правилом понимается логическая конструкция, представлен- 


ная в виде {А Шеп В (А >В). 


Пусть задано некоторое обучающее множество Х, содержащее объекты, 
каждый из которых характеризуется т атрибутами и один из них указывает на 
принадлежность объекта к определенному классу. Это множество обозначим 


= {х/ ке о 1=Ър;К =ЬК ,› где каждый элемент этого множества описывается атри- 
бутами х = (х )/: =1,т —1 и принадлежит одному из классов С, . Количество приме- 


ров в множестве равно р является мощностью этого множества |х |. Через {С,} 


обозначается множество классов. 

Каждое множество Х на любом этапе разбиения характеризуется следующими 
показателями: 

[) множество Х содержит несколько объектов, относящихся к одному классу С,. 


В этом случае множество Х является листом, определяющим класс С, ; 


2) множество Х не содержит ни одного объекта (Х =0). В данной ситуации 
необходимо возвратиться к предыдущему этапу разбиения; 

3) множество Х содержит объекты, относящиеся к разным классам. Такое 
множество является пригодным для разбиения на некоторые подмножества. Для этого 
выбирается одна из переменных и в соответствии с правилами х<у,х>уи мно- 


жество Х разбивается на два подмножества. Этот процесс рекурсивно продолжается 
до тех пор, пока конечное множество не будет состоять из примеров, относящихся к 
одному и тому же классу. 

Данная процедура лежит в основе многих алгоритмов построения деревьев реше- 
ний (метод разделения и захвата). Построение дерева решений происходит сверху вниз. 
Сначала создается корень дерева, затем потомки корня и т.д. 

Поскольку все объекты были заранее отнесены к известным классам, такой про- 
цесс построения дерева решений называется обучением с учителем. 

При построении деревьев решений необходимо решить следующие задачи: 

а) выбор критерия атрибута, по которому пойдет разбиение; 

6) остановка обучения; 

в) отсечение ветвей. 

Выбор критерия атрибута. 

Для построения дерева на каждом внутреннем узле необходимо найти такое 
условие, которое бы разбивало множество, ассоциированное с этим узлом на подмно- 
жества. В качестве такой проверки должен быть выбран один из атрибутов. Выбранный 
атрибут должен разбить множество так, чтобы получаемые в итоге подмножества 
состояли из объектов, принадлежащих к одному классу, или были максимально прибли- 
жены к этому, то есть количество объектов из других классов в каждом из этих 
множеств было как можно меньше. 

Одним из способов выбора наиболее подходящего атрибута является примене- 
ние теоретико-информационного критерия. 
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Задача заключается в построении иерархической классификационной модели в 
виде дерева из множества объектов Х' = РИ = р; =ЪК. На первом шаге 


имеется только корень и исходное множество, ассоциированное с корнем. 

Требуется разбить исходное множество на подмножества. Это можно сделать, 
выбрав один из атрибутов в качестве проверки. Тогда в результате разбиения полу- 
чаются и (по числу значений атрибута) подмножеств и соответственно создаются и 
потомков корня, каждому из которых поставлено в соответствие свое подмножество, 


полученное при разбиении множества Х = О =1,р;к =1,К . Затем эта 
процедура рекурсивно применяется ко всем подмножествам (потомкам корня) и т.д. 
Любой из атрибутов можно использовать неограниченное количество раз при построе- 


нии дерева. 
Определим в качестве проверки { какой-либо атрибут, принимающий значения 


х, = (*,} =1,т; / =1п. Тогда разбиение Х по проверке Е дает соответствующие под- 


множества Х,,/=1,п. Критерий выбора определяется информацией о том, каким 


образом классы распределены в множестве Хи его подмножествах, получаемых при 
разбиении по 1. 


К . 
Обозначим Р,,К =, КЕ =1,т;4 =Ъ п вероятность принадлежности классу А по 
ь Е уз 
атрибуту Ги 4-му пороговому значению х, = [о =1,т;/=Ъп ‚а Р” - вероятность 
попадания в класс К. В качестве меры среднего количества информации, необхо- 
димого для определения класса примера из множества Х, берется энтропия Шеннона 
К 
Не» РЕ," 
У = 5. 
К=1 
Разбиению множества Х по проверке { соответствует выражение для энтропии 
К 
=, |: |: 
Ни = = 108> Ри . 
К=1 
Критерием выбора является выражение 
Нх-Ны —> шах 
или 
Н„ > шт. 

Минимальное значение энтропии Н„ соответствует максимуму вероятности 
появления одного из классов. Выбранный атрибут и пороговое значение, миними- 
зирующее Н»„, 

(1,4) = А’еМтН, 
используются для проверки значения по этому атрибуту и дальнейшее движение по 
дереву производится в зависимости от полученного результата. 

Данный алгоритм применяется к полученным подмножествам и позволяет про- 
должить рекурсивно процесс построения дерева до тех пор, пока в узле не окажутся 
примеры из одного класса. Если в процессе работы алгоритма получен узел, ассоци- 
ированный с пустым множеством (то есть ни один пример не попал в данный узел), 


то он помечается как лист, и в качестве решения листа выбирается наиболее часто 
встречающийся класс у непосредственного предка данного листа. 
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Для нахождения пороговых величин для числового атрибута значения 
хр =1,т; } =Ър сортируются по возрастанию и 


(д. +х/ в ЕЕ, 
Е я=т;7=Ър-1 
определяют порог, с которым должны сравниваться все значения атрибута. Следует отме- 
тить, что все числовые тесты являются бинарными, то есть делят узел дерева на две ветви. 

Правила остановки разбиения узла. 

1. Использование статистических методов для оценки целесообразности даль- 
нейшего разбиения. 

2. Ограничение глубины дерева. Остановить дальнейшее построение, если раз- 
биение ведет к дереву с глубиной, превышающей заданное значение. 

3. Разбиение должно быть нетривиальным, то есть получившиеся в результате 
узлы должны содержать не менее заданного количества примеров. 

Правило отсечения ветвей дерева. 

Предназначено для предотвращения сложных деревьев, трудных для понима- 
ния, которые имеют много узлов и ветвей. 

Примем за точность распознавания дерева решений отношение правильно 
классифицированных объектов при обучении к общему количеству объектов из 
обучающего множества, а под ошибкой — количество неправильно классифицирован- 
ных. Предположим, что известен способ оценки ошибки дерева, ветвей и листьев. 
Тогда возможно использовать следующее правило: 

1 — построить дерево; 

2 — отсечь или заменить поддеревом те ветви, которые не приведут к возраста- 
нию ошибки. 

Отсечение ветвей происходит снизу вверх, двигаясь с листьев дерева, отмечая 
узлы как листья, либо заменяя их поддеревом. 


Вывод 


В данной работе для построения модели взаимодействия с клиентами исполь- 
зован интеллектуальный метод обработки информации на основе деревьев решений. 
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А. Якупов 

Застосування дерев ришень для моделювання кредитоспроможност! кленив комерцного банку 

У теперпинй час перед росйськими банками гостро постае задача оптим1зацИ процесу видач 
кредитв як фузичним, так 1 юридичним особам. Це дозволяе зробити скоринг. У дан статт! 
описуеться застосування дерев рипень для побудування скорингово! модел1. 


А. Уакироу 

Тре Бес1510п Тгее’5 Адарайоп юг МодеНпрх о? Соштегса! Вапк СНеп6 Зоуепсу 

Моу’адауз фе таш ргоМет оР Фе Виззап БапК$ \асВ соп$15ё ш сгеФте орйпиханоп Бо а пафига1 
регзоп ап4 а [ега| регзоп. ТНе “зсопи?” сап Вер ю аеслае 1$ ргоМет. ТБе 4ес1$1юп гее’$ адараноп Юг 
“зсогш#” то4де| 4ейтоп 4езсте ш 1$ агисе. 


Статья поступила в редакцию 02.07.2008. 
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